# 1. 初始化工具类（指定PDF路径）
from utils.PDFLawReader import PDFLawReader

pdf_reader = PDFLawReader(pdf_path="劳动合同法.pdf")

try:
    # 2. 打开文档
    pdf_reader.open_document()

    # 3. 读取文档基本信息
    doc_info = pdf_reader.get_document_info()
    print("=== 文档基本信息 ===")
    for key, value in doc_info.items():
        print(f"{key}: {value}")

    # 4. 提取全文并保存到txt
    full_text = pdf_reader.extract_full_text()
    print("\n=== 文档全文 ===",full_text)
    print(f"\n=== 文档总字数：{len(full_text.replace(' ', '').replace('\n', ''))} 字 ===")
    # pdf_reader.save_text_to_file(full_text, save_path="output/劳动合同法_全文.txt")
    #
    # # 5. 按章节提取（以"第一章"到"第八章"为例）
    # chapter_keywords = [f"第{i}章" for i in range(1, 9)]  # ["第一章", "第二章", ..., "第八章"]
    # chapter_content = pdf_reader.extract_text_by_chapter(chapter_keywords)
    # print(f"\n=== 提取到的章节数量：{len(chapter_content)} ===")
    # # 保存"第四章 劳动合同的解除和终止"到单独文件
    # if "第四章 劳动合同的解除和终止" in chapter_content:
    #     pdf_reader.save_text_to_file(
    #         chapter_content["第四章 劳动合同的解除和终止"],
    #         save_path="output/劳动合同法_第四章_解除和终止.txt"
    #     )

finally:
    # 6. 关闭文档（必须执行，释放资源）
    pdf_reader.close_document()
